1. Exploración y analisis

Muchos de los servicios principales de MELI son públicos, lo cual permite acceder a los datos de forma sencilla. En la primera parte del desafío el objetivo es realizar un análisis exploratorio de las publicaciones con descuento del marketplace. Las preguntas a responder y el enfoque del análisis son libres. Como punto de partida se puede sugiere utilizar la API de search de mercadolibre, la cual está por detrás del buscador de Mercadolibre.

En esta parte del desafío, las preguntas son abiertas, pero a modo de ayuda estas son algunas de las que se podrían responder:

Contenido del Notebook:

  1. Exploración y análisis

1.1. Categorías y subcategorías

Arrancamos revisando cómo están distribuidos los servicios de MercadoLibre. En particular, vale mencionar los identificadores de cada uno de los sites o portales de MercadoLibre para cada país. Así, el identificador de Argentina es MLA, el de Chile es MLC y el de Colombia es MCO [ver listado completo]. El presente desarrollo está basado en el site de MercadoLibre para Colombia, con código MCO.

Enseguida, notamos que el sitio cuenta con categorías ("Carros, Motos y Otros" , "Computación" , "Celulares y Teléfonos",...) y subcategorías para cada una de las primeras (para la categoría "Celulares y Teléfonos" hay subcategorías como "Accesorios para Celulares", "Celulares y Smartphones", "Repuestos de Celulares",...). Cada categoría y subcategoría cuenta con un identificador único que inicia con los caracteres "MCO".

Entonces, lo primero que haremos será elegir algunas subcategorías, traernos los datos aprovechando los atributos en su API, armar un dataframe y trabajar en el análisis:

Nos iremos con la categoría "Celulares y Teléfonos". Ahora, buscaremos una subcategoría interesante.

Considerando la razonable cantidad de ítems y su relevancia para los compradores en línea, aquí trabajaremos con "Celulares y Smartphones". Su identificador es MCO1055.

Ahora repetimos el proceso para otra subcategoría interesante pero ahora en la categoría "Electrónica, Audio y Video":

"Televisores" parece interesante por lo que trabajaremos con ella siendo su código el MCO14903. Complementaremos con "Video Beams y Pantallas", "Accesorios Audio y Video" y "Smartwatches y Accesorios" (MCO4800, MCO3690 y MCO417704, respectivamente): son de temática similar y se han hecho más necesarios que nunca con el tema de la pandemia.

En resumen, fueron 5 los elegidos:

1.2. Generación del dataset

Ya con los códigos elegidos, resta armar el dataset inicial yendo a consultar a la API de MercadoLibre directamente con dichos códigos:

¿Cuántos registros hay por cada código?

Para considerar:
Aunque sería interesante hacerlo con toda la data, para evitar potenciales limitaciones en tiempo y acceso al recurso, solo tomaremos 1.000 registros por código MCO. Para ello, recurriremos a los parámetros limit y offset proveídos por la API [Más información]

Por mejorar:

Para traer más de 1.000 registros, hay otra forma de realizar la búsqueda. Queda pendiente su implementación para futuros trabajos.

Y así ya tenemos la base final, con 5.000 registros de nuestros interés, 1.000 por cada una de las categorías elegidas:

1.3. Análisis

Lo más importante es tener en cuenta el objetivo del análisis, en este caso, extraer conocimiento desde las publicaciones en diferentes categorías de productos. Una buena idea es realizar un análisis para conocer las distribuciones de cada variable, sus categorías y sus tipos así como revisar datos atípicos, datos faltantes y relaciones entre ellas.

Diagnóstico

Variables en general

Valores perdidos y correlaciones

El gráfico específica la cantidad de valores nulos por variable. Se destaca que sale_price está completamente sin datos, original_price tiene 92.5% de valores nulos, prices está totalmente vacía y solo el 5.7% tienen valor en original_price (o sea, solo ese porcentaje son publicaciones con descuento).

Muchas de las correlaciones son triviales y se infieren por el nombre, por ejemplo, la correlación entre todas las variables de ubicación (address), sin embargo, a la hora de modelar, sí vale la pena echarle un vistazo más detallado a correlaciones entre numéricas, en especial, a todas las relacionadas con precios y ventas (incluyendo la correlación entre original_price y sold_quantity ).

Más insights

Sobre los descuentos

De las consideradas, el descuento promedio más alto está en la categoría/subcategoría "Televisores", seguido de la categoría de "Smartwatches". Sin embargo, el que más productos con descuentos tiene es la categoría "Celulares y Smartphones" (16.6%), como se puede notar en el eje Y de los histogramas y como se verifica en la siguiente tabla:

1.4. Mejoras en el código y siguientes pasos: